行为克隆通过从专家演示中学习来表现出许多在许多决策任务中的成功,但是它们可能是非常低效的样本效率,并且未能概括地看不见的情况 - ios。解决这些问题的一种方法是引入一般领域知识,以便该政策可以集中在基本特征上,并可以通过应用这些知识来概括地看不到国家。尽管这些知识很容易从专家那里获取,但由于神经网络中缺乏疾病结构以及功能工程的时间耗尽性质,很难与单个示例中的学习相结合。为了从通用知识和特定的演示轨迹中学习,我们使用大型语言模型的编码能力来实例化基于自然语言的专家领域知识的策略结构,并通过演示调整策略中的参数。我们将这种方法命名为知识知情模型(KIM),因为结构反映了专家知识的语义。在我们对Lunar Lander和赛车任务的实验中,我们的方法学会了以5个演示的方式解决任务,并且对噪声非常强大,从而超过了基线模型,并具有域名知识。这表明,借助大型语言模型,我们可以将域知识纳入策略的结构中,从而提高了行为克隆的样本效率。
![arxiv:2501.16546v1 [cs.ai] 2025年1月27日PDF文件第1页](/bimg/4/4f24b59a172e20d75ece90a68f11755dc6dca2c7.webp)
![arxiv:2501.16546v1 [cs.ai] 2025年1月27日PDF文件第2页](/bimg/0/0afc1f495450ac855111c2694690f20203897029.webp)
![arxiv:2501.16546v1 [cs.ai] 2025年1月27日PDF文件第3页](/bimg/6/6bae947547571ba82fb8ce8d4dd6617a9f9f72b5.webp)
![arxiv:2501.16546v1 [cs.ai] 2025年1月27日PDF文件第4页](/bimg/f/fbc2e7584055f95f0b837275d6e4889f0ba48e79.webp)
![arxiv:2501.16546v1 [cs.ai] 2025年1月27日PDF文件第5页](/bimg/8/81725584c7a7a1d79f31b6758896975902be6b49.webp)
